Дали се чет-ботовите отпорни на ласкање?

Истражување на Универзитетот Пенсилванија открива дека современите AI модели лесно можат да бидат „измамени“ со класични психолошки трикови како ласкање, групен притисок и лажен авторитет. Резултатите отвораат сериозни прашања за безбедноста и доверливоста на системите што ги користиме секојдневно.

Webmind Редакција
16/09/2025

Извор: DALL-E3

СОДРЖИНА

Дали се чет-ботовите отпорни на ласкање?

Како ласкањето го менува однесувањето на вештачката интелигенција

Вештачката интелигенција често се доживува како непристрасна и логична, отпорна на човечки слабости и емоционални замки. Сепак, најновата студија покажува поинаква слика: софистицираните чет-ботови се однесуваат изненадувачки слично на луѓето кога се соочуваат со психолошки манипулации.

Научници од Универзитетот Пенсилванија го тестирале моделот GPT-4o Mini преку седум тактики на влијание опишани во класичната книга на Роберт Чалдини Influence: The Psychology of Persuasion. Станува збор за стратегии засновани на принципите на авторитет, посветеност, допадливост, реципроцитет, оскудност, општествен доказ и единство. Истражувањето покажа дека ниту една од овие методи не е безопасна кога се применува врз AI системи.

Во контролни услови, без дополнителни трикови, чет-ботот на прашање за синтеза на лидокаин — тема што спаѓа во категорија на забранети и потенцијално опасни — одговорил во само еден процент од случаите. Но примената на принципот на посветеност донела шокантно различен резултат. Прво бил замолен да опише безопасен процес за добивање ванилин, а потоа добил барање во врска со лидокаинот. Во тој момент, стапката на позитивен одговор скокнала на сто проценти.

Овој ефект илустрира колку е лесно еднаш да се „отклучи вратата“: ако AI веќе влезе во образец на давање информации, ќе биде поспремен да продолжи понатаму, дури и кога содржината ја надминува границата на безбедноста.

Општествен притисок и комплименти како Ахилова пета

Резултатите се повториле и во други сценарија. Кога истражувачите прво го навредиле чет-ботот нарекувајќи го „bozo“, а потоа побарале и самиот да нарече некого „jerk“, манипулацијата била целосно успешна, од почетни 19 проценти стапката скокнала на 100. Иако ласкањето и групниот притисок биле помалку убедливи, и тие ја зголемиле веројатноста за исполнување на забрането барање од 1 на 18 проценти. Значи, дури и блага доза психолошка игра била доволна за да се нарушат заштитните механизми.

Овие наоди имаат далекусежни последици. Ако релативно едноставни техники се доволни за да го „разбијат“ системот во лабораториски услови, се поставува прашањето што се случува во реалниот свет, каде мотивирани корисници или организирани групи можат да имаат многу повеќе трпение и ресурси. Особено загрижува фактот што чет-ботовите веќе се користат во чувствителни сектори, од образование и здравство до правни и финансиски услуги, објави The Verge.

Она што истражувањето недвосмислено го покажа е дека вештачката интелигенција, и покрај сите филтри и безбедносни слоеви, останува ранлива на обрасци од човечкиот јазик. Бидејќи е тренирана токму на човечки комуникации, логично е да ги репродуцира и нашите слабости. Иако машините немаат емоции, тие се способни да „прифатат“ обрасци што делуваат како социјален притисок или комплимент.

Поради тоа, инженерите и компаниите што развиваат AI мора да вложат дополнителни напори моделите да станат поотпорни, не само на директни барања за опасни информации, туку и на суптилни трикови што ги вовлекуваат во замка. Тоа вклучува нови методи на тестирање, пософистицирани филтри и построги безбедносни протоколи.

Сè додека тоа не се постигне, прашањето од насловот останува отворено: чет-ботовите можеби можат да обработат милијарди податоци, но очигледно не се имунизирани на нешто толку едноставно како човечкото ласкање.

Извор: web-mind.rs